国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一
国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一国内大模型的能力,又来到了一个新高度!
国内大模型的能力,又来到了一个新高度!
虽然 OpenAI 反复强调 Scaling Law 是大模型最重要的原则,但事实上,GPT-4 在过去一年里缩小了 10 倍。
才用了112台A800,就能训出性能达GPT-4 90%的万亿参数大模型?智源的全球首个低碳单体稠密万亿参数大模型Tele-FLM,有望解决全球算力紧缺难题!此外,全新思路的原生多模态「世界模型」Emu 3等都浅亮相了一把。2024的智源大会,依然是星光熠熠,学术巨佬含量超标。
大模型也可解释了?大模型都在想什么?OpenAI 找到了一种办法,能给 GPT-4 做「扫描」,告诉你 AI 的思路,而且还把这种方法开源了。
众所周知,对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说,构建高质量的网络规模数据集是非常重要的。然而,即使是最先进的开源 LLM 的预训练数据集也不公开,人们对其创建过程知之甚少。
John Schulman 是 OpenAI 联合创始人、研究科学家(OpenAI 现存最主要具有技术背景的创始人),他领导了 ChatGPT 项目,在 OpenAI 内部长期负责模型 post-traning,在 Ilya 和 Jan Leike 离开 OpenAI 后,下一代模型安全性风险相关的研究也会由 John Schulman 来接替负责。
最近一段时间中国大模型领域变得异常热闹,最重要的话题就是各大模型公司的“价格战”。
5 月 21 日上午,阿里云在其例行峰会上,意外地释放了大降价的消息:通义千问 GPT-4 级主力模型推理输入价格降至 0.5 元/百万 tokens,直降 97%。
OpenAI长期霸榜的SuperCLUE(中文大模型测评基准),终于被国产大模型反将一军。
近日,西交微软北大联合提出信息密集型训练大法,使用纯数据驱动的方式,矫正LLM训练过程产生的偏见,在一定程度上治疗了大语言模型丢失中间信息的问题。